국가기술표준원 (2009-12-28), “책의 명칭 및 편집 일반 용어”, KS X 0003 내용을 참조하여 책에 대한 한국어 표준용어 사전을 이해한다.
책의 명칭과 편집 일반용어가 필요한 곳은 일반 책을 비롯하여 신문, 잡지, 교과서, 사전, 리플릿, 문서, 인쇄 광고물 등 종이 출판물과 웹북, 웹진, 모바일 콘텐츠 등 전자적 표기에 널리 쓰이는 모든 표현 매체를 아우른다.
library(tidyverse)
library(slickR)
library(pdftools)
book_pdf <- pdf_convert("data/KSX0003_20091228.pdf",format = 'png',verbose = FALSE)한국어 표준책 용어 및 편집 일반 용어를 직접 살펴볼 수 있도록 준비한다.
# book_pdf_tbl <- tibble(page = glue::glue("fig/book/{book_pdf}") )
#
# book_pdf_tbl %>%
# write_rds("data/book_pdf_tbl.rds")
book_pdf_tbl <- read_rds("data/book_pdf_tbl.rds")
slickR(book_pdf_tbl$page, height = 600)책은 다음과 같은 구성을 갖고 있다.
PDF에서 바로 표를 추출할 경우 기계판독 가능한 표이기는 하지만 형태가 뭉개져서 제대로 사용할 수 없다.
library(tabulizer)
table_result <- list()
# locate_areas(file = "data/KSX0003_20091228.pdf", pages = 5)
for (i in c(5, 7, 9, 10:11, 13, 15:21)){
out <- extract_tables("data/KSX0003_20091228.pdf",
page = i,
encoding = "UTF-8",
guess = FALSE,
method = 'stream',
area = list(c(108.70328, 65.78973, 697.26248, 527.02796)))
table_result[[i]] <- as.data.frame(out)
}
table_result[[5]] %>%
reactable::reactable()이런 문제를 PDF 파일으로 워드로 변환시킨 후에 워드에서 표를 추출하는 방식을 동원한다. 자세한 사항은 워드 파일에서 표(table) 추출 하는 방식을 참고한다.
데이터 과학자 이광춘 저작
kwangchun.lee.7@gmail.com